Sự phát triển của các kiến trúc MLLM: Từ tập trung vào thị giác đến tích hợp đa cảm giác

Sự phát triển của các kiến trúc MLLM

Sự phát triển của các Mô hình Ngôn ngữ Lớn Đa cảm biến (MLLMs) đánh dấu sự chuyển dịch từ những khu vực riêng biệt theo từng loại cảm giác sang Không gian Biểu diễn Tổng hợp, nơi các tín hiệu phi văn bản (hình ảnh, âm thanh, 3D) được chuyển đổi thành ngôn ngữ mà mô hình LLM có thể hiểu.

1. Từ thị giác đến đa cảm giác

Các MLLM sơ khai:Chủ yếu tập trung vào các Mô hình Biến đổi Thị giác (ViT) cho các tác vụ hình ảnh - văn bản.
Các kiến trúc hiện đại:Tích hợp âm thanh (ví dụ: HuBERT, Whisper) và đám mây điểm 3D (ví dụ: Point-BERT) để đạt được trí tuệ chéo cảm giác thực sự.

2. Cầu nối Chiếu xạ

Để kết nối các loại cảm giác khác nhau với mô hình LLM, một cầu nối toán học là cần thiết:

Chiếu xạ tuyến tính:Một phép ánh xạ đơn giản được dùng trong các mô hình đầu tiên như MiniGPT-4.
$$X_{llm} = W \cdot X_{modality} + b$$
MLP nhiều lớp:Một phương pháp hai lớp (ví dụ: LLaVA-1.5) cung cấp sự đồng nhất vượt trội cho các đặc trưng phức tạp thông qua các phép biến đổi phi tuyến tính.
Người điều chỉnh lại mẫu / Người trừu tượng hóa:Những công cụ tiên tiến như Perceiver Resampler (Flamingo) hoặc Q-Former giúp nén dữ liệu chiều cao thành các token có độ dài cố định.

3. Chiến lược Giải mã

Token rời rạc:Biểu diễn đầu ra dưới dạng các mục từ điển cụ thể (ví dụ: VideoPoet).
Nhúng liên tục:Sử dụng các tín hiệu "mềm" để hướng dẫn các bộ sinh sản chuyên dụng phía sau (ví dụ: NExT-GPT).

Quy tắc Chiếu xạ

Để một mô hình LLM xử lý một âm thanh hay một vật thể 3D, tín hiệu phải được chiếu vào không gian ngữ nghĩa hiện có của mô hình LLM, để nó được hiểu là một "tín hiệu cảm giác" chứ không phải nhiễu.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

Which projection technique is generally considered superior to a simple Linear layer for complex modality alignment?

Token Dropping

Two-layer MLP or Resamplers (e.g., Q-Former)

Softmax Activation

Linear Projection

Question 2

What is the primary role of ImageBind or LanguageBind in this architecture?

To generate text from images

To compress video files

To create a Unified/Joint representation space for multiple modalities

To increase the LLM context window

Challenge: Designing an Any-to-Any System

Diagram the flow for an MLLM that takes an Audio input and generates a 3D model.

You are tasked with architecting a pipeline that allows an LLM to "listen" to an audio description and output a corresponding 3D object. Define the three critical steps in this pipeline.

Step 1

Select the correct encoder for the input signal.

Solution:
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.

Step 2

Apply a Projection Layer.

Solution:
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).

Step 3

Generate and Decode the output.

Solution:
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.